Neste projeto foi realizado a implementação na linguagem Python e utilizando o ambiente de programação R Studio um programa para estimar/predizer o preço (MSRP) que nada mais é do que o preço pelo qual o fabricante recomenda que o produto seja vendido no varejo, a partir de suas caracteristicas como marca, modelo, quilometragem, ano, estado e cidade.
Inicialmente fizemos uma separação (split) dos dados originais em dois subconjuntos aleatórios disjuntos na proporção 80% para treino e 20% para teste. A partir disso, com os 80% de treino, retiramos a variavel alvo (price) das variaveis de predicao e transformamos o dataframe em questão, onde as colunas categóricas City, State, Make e Model foram transformadas em colunas numéricas.
Tendo realizado essas operações iniciais partimos para a criação de dois modelos preditivos, sendo um modelo a árvore de decisão (Tree Decision) e o outro modelo o Ada Booster. Em seguida treinamos as duas IA’s (com seu subconjunto de treino) e por fim avaliamos os modelos com o conjunto de teste, obtendo métricas(RMSE e MAE) de qualidade do modelo preditivo. Fizemos um laço de repetição dos passos acima 10 vezes para calculo das métricas e salvamos os resultados das predições de ambos em um arquivo CSV denominado “results.csv”.
A seguir podemos compreender a distribuição dos preços dos carros contidos na base de dados:
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1500 13000 18500 21479 26995 499500
Observações:
Observando graficamente os resultados das predições, abaixo temos um scatter plot que mostra a relação do preço real x preço predito, onde o cenário ideal seria o aparecimento de uma linearidade no gráfico.
Abaixo podemos observar os resultado das métricas(RMSE e MAE) avalitiavas dos modelos (TD e ADA).
RMSE(ROOT MEAN SQUARE ERROR): A medida de erro mais comumente usada para aferir a qualidade do ajuste de um modelo é a chamada RAIZ DO ERRO MÉDIO QUADRÁTICO. Ela é a raiz do erro médio quadrático da diferença entre a predição e o valor real. Podemos pensar nela como sendo uma medida análoga ao desvio padrão
MAE(Mean Absolute Error): Mede a magnitude média dos erros em um conjunto de previsões, sem considerar sua direção. É a média sobre a amostra de teste das diferenças absolutas entre previsão e observação real, onde todas as diferenças individuais têm peso igual.